面向语音增强的双复数卷积注意聚合递归网络

doi:10.11772/j.issn.1001-9081. 2022101533

《计算机应用》唯一官方网站

• • 下一篇

面向语音增强的双复数卷积注意聚合递归网络

余本年¹,詹永照¹,毛启容^1,2,董文龙¹,刘洪麟¹

1.江苏大学计算机科学与通信工程学院，江苏镇江 212013
2.江苏省大数据泛在感知与智能农业应用工程研究中心，江苏镇江 212013

收稿日期:2022-10-13 修回日期:2022-12-25 接受日期:2022-12-28 发布日期:2023-04-12 出版日期:2023-04-12
通讯作者: 詹永照
基金资助:
国家自然科学基金重点项目;江苏省重点研究开发计划

Double complex convolutional and attention aggregating recurrent network for speech enhancement

Received:2022-10-13 Revised:2022-12-25 Accepted:2022-12-28 Online:2023-04-12 Published:2023-04-12
Contact: ZHAN Yong-zhao
Supported by:
National Natural Science Foundation of China;Jiangsu Province Key Research and Development Program

摘要/Abstract

摘要： 针对现有语音增强方法对图谱特征关联信息表达有限和去噪效果不理想的问题，提出一种双复数卷积注意聚合递归网络（DCCARN）。首先，建立双复数卷积网络，对短时傅里叶变换后的语谱图特征分别进行两分支信息编码；其次，将两分支中编码分别用特征块间和块内注意力机制对不同的语音特征信息进行重标注；然后，经长短期记忆（LSTM）处理长时间序列信息，再经两解码器还原语谱特征并将特征聚合；最后，经短时逆傅里叶变换生成目标语音波形，达到抑制噪声目的。在公开数据集VBD和加噪的TIMIT数据集上分别进行实验，结果表明，与相位感知的深度复数卷积递归网路（DCCRN）相比，DCCARN在客观语音质量评估（PESQ）上分别提升了5.597%和2.672%。验证了所提方法能更准确地捕获图谱特征上的关联信息并更有效抑制噪声和增强语音清晰度。

关键词: 语音增强, 注意力机制, 复数卷积网络, 编码, 长短期记忆

Abstract: Aiming at the problems of limited representation of graph feature correlation information and unsatisfactory denoising effect in existing speech enhancement methods, a Double Complex Convolutional Attention Aggregation Recurrent Network (DCCARN) was proposed. First, a double-complex convolutional network was established to encode the two-branch information of the spectrogram features after the short-time Fourier transform. Secondly, the encoders in the two branches were respectively used for different feature-block and intra-block attention mechanisms, and speech feature information was re-labeled. Then, the long-term sequence information was processed by Long-Short-Term-Memory (LSTM), and the spectral features were restored and aggregated by two decoders. Finally, the estimated speech waveform was generated by short-time inverse Fourier transform to activate the purpose of suppressing noise. Experiments are carried out on the public dataset Voice Bank + DMAND (VBD) and the noised the DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus（TIMIT）dataset. The results show that, compared with the phase-aware Deep Complex Convolutional Recurrent Network (DCCRN), DCCARN is more effective in Perceptual Evaluation of Speech Quality (PESQ) increased by 5.597% and 2.672% respectively. It is verified that the proposed method can more accurately capture the correlation information on the speech features, suppress noise more effectively and enhance speech intelligibility.

Key words: speech enhancement, attention mechanism, complex convolutional network, coding, LSTM(Long Short Term Memory)

中图分类号:

TN912.34

余本年詹永照毛启容董文龙刘洪麟. 面向语音增强的双复数卷积注意聚合递归网络[J]. 计算机应用, DOI: 10.11772/j.issn.1001-9081. 2022101533.

[1]	李宗禹, 强思维, 郭晓波, 朱振峰. 重加权的对抗变分自编码器及其在工业因果效应估计中的应用[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1099-1106.
[2]	陈天华, 朱家煊, 印杰. 基于注意力机制的鸟类识别算法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1114-1120.
[3]	许立君, 黎辉, 刘祖阳, 陈侃松, 马为駽. 基于3D‑Ghost卷积神经网络的脑胶质瘤MRI图像分割算法3D‑GA‑Unet[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1294-1302.
[4]	郭洁, 林佳瑜, 梁祖红, 罗孝波, 孙海涛. 基于知识感知和跨层次对比学习的推荐方法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1121-1127.
[5]	张鹏飞, 韩李涛, 冯恒健, 李洪梅. 基于注意力机制和全局特征优化的点云语义分割[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1086-1092.
[6]	肖斌, 甘昀, 汪敏, 张兴鹏, 王照星. 基于端口注意力与通道空间注意力的网络异常流量检测[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1027-1034.
[7]	杨先凤, 汤依磊, 李自强. 基于交替注意力机制和图卷积网络的方面级情感分析模型[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1058-1064.
[8]	王海涵, 朱焱. 融合反讽机制的攻击性言论检测[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1065-1071.
[9]	袁泉, 陈昌平, 陈泽, 詹林峰. 基于BERT的两次注意力机制远程监督关系抽取[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1080-1085.
[10]	尤昕源, 王恒. 基于门控膨胀卷积循环网络的单声道语音增强[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1317-1324.
[11]	黄荣, 宋俊杰, 周树波, 刘浩. 基于自监督视觉Transformer的图像美学质量评价方法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1269-1276.
[12]	郑宇亮, 陈云华, 白伟杰, 陈平华. 融合事件数据和图像帧的车辆目标检测[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 931-937.
[13]	董炜娜, 刘佳, 潘晓中, 陈立峰, 孙文权. 基于编码-解码网络的大容量鲁棒图像隐写方案[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 772-779.
[14]	赵奎, 仇慧琪, 李旭, 徐知非. 结合注意力和多路径融合的实时肺结节检测算法[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 945-952.
[15]	尚爱国, 朱欣娟. 基于多任务学习的意图检测和槽位填充联合方法[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 690-695.

面向语音增强的双复数卷积注意聚合递归网络

Double complex convolutional and attention aggregating recurrent network for speech enhancement

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics